灾害智能识别-Random Forest算法

1.什么是随机森林

随机森林是一个高度灵活的机器学习方法，拥有广泛的应用前景，从市场营销到医疗保健保险。既可以用来做市场营销模拟的建模，统计客户来源，保留和流失。也可用来预测疾病的风险和病患者的易感性。随机森林算法应用范围广泛。

随机森林算法通过集成学习的思想将多棵树进行集成，它的基本单元是决策树，其本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。针对分类问题，每棵决策树都是一个分类器，那么对于一个输入样本，N棵树会有N个分类结果。随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，从而对 Bagging （Bootstrap aggregating）算法进行实现。

2.相关知识

2.1 集成学习

集成学习通过建立多个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

随机森林是集成学习的一个子类。

2.2 信息、熵以及信息增益

香农：信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言，如果带分类的事物集合可以划分到多个类别中，则某个类$（x_i）$的信息定义如下: $I(X=x_i)=-log_2p(x_i)$ $I(x)$用来表示随机变量的信息，$p(x_i)$指是当$x_i$发生时的概率。

熵用来度量不确定性，熵越大，$X=x_i$的不确定性越大，反之越小。对于机器学习中的分类问题而言，熵越大即这个类别的不确定性更大，反之越小。
信息增益在决策树算法中用来选择特征的指标，信息增益越大，这个特征的选择性越好。

2.3决策树

决策树是一种树形结构，每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。　　

3、灾害智能识别

3.1 地质灾害数据清洗与数据抽析。

对不同GIS专题数据进行数据清洗与数据抽析。

3.2 地质灾害数据标准化

对清洗后的数据进行数据标准化处理，形成可标准化Input数据。

3.3 地质灾害数据训练与预测

利用标准化后的Input数据进行训练与预测。

灾害智能识别-Random Forest算法

灾害智能识别-Random Forest算法

1.什么是随机森林

2.相关知识

2.1 集成学习

2.2 信息、熵以及信息增益

2.3决策树

3、灾害智能识别

3.1 地质灾害数据清洗与数据抽析。

3.2 地质灾害数据标准化

3.3 地质灾害数据训练与预测

results matching ""

No results matching ""